Vision Intelligence Research Group

报告时间：2022年7月10日 18:00-20:00

会议形式：线上会议（Virtual）

主讲人：杨乐博士（Dr. Le Yang）

活动类型：VALSE Conference

报告摘要

时序动作定位任务致力于从漫长的视频中发现有意义的动作片段，并标注起止时间和动作类别。在实际应用中，算法需要在线地处理视频流并及时准确地检测出正在发生的动作，这将传统的时序动作定位任务发展为新兴的在线动作检测任务。

已有方法通常在一个视频片段内部精细地建模时序依赖，从而进行在线动作检测。这种学习范式会导致两个问题：

(1) 即使两个动作实例属于同一类别，他们可能由于来自不同视频而无法进行信息交互。
(2) 训练过程希望为每类动作学习特定的一种表征，但同类动作的不同阶段通常具有较大的差异性。

为应对上述两点挑战，本文提出样例查询机制，在动态样例分支中，通过比较时序样例和当前帧的相似性，以一种简单高效的方式建模时序信息；在静态样例分支中，通过比较类别样例和当前帧的相似性，能进行跨视频信息交互并为每类动作学习多样性的表征。

相比已有方法，所提方法效率更快，检测精度更高，能为后续在线动作检测研究提供简单有效的基准模型。

在线动作检测任务要求算法能够实时处理视频流，及时准确地检测正在发生的动作。传统方法在视频片段内部建模时序依赖，存在跨视频信息交互困难和动作表征多样性不足的问题。

样例查询机制：

• 动态样例分支：通过比较时序样例和当前帧的相似性，简单高效地建模时序信息

• 静态样例分支：通过比较类别样例和当前帧的相似性，实现跨视频信息交互并学习动作表征的多样性

• 效率更快：相比已有方法，计算效率显著提升

• 精度更高：在线动作检测精度得到明显改善

• 基准模型：为后续研究提供简单有效的基准模型